Lịch sử Q-learning_(học_tăng_cường)

Q -learning được giới thiệu bởi Watkins [11] vào năm 1989. Một bằng chứng hội tụ đã được trình bày bởi Watkins và Dayan [12] vào năm 1992. Một bằng chứng toán học chi tiết hơn bởi Tsitsiklis [13] vào năm 1994, và bởi Bertsekas và Tsitsiklis trong cuốn sách Lập trình động học Neuro năm 1996 của họ.[14]

Watkins đã giải quyết vấn đề Học tập từ các phần thưởng bị trì hoãn, tiêu đề của Luận án tiến sĩ của ông. Tám năm trước đó vào năm 1981, cùng một vấn đề, dưới cái tên Căng thẳng học tăng cường học tập, đã được giải quyết bằng Mảng thích nghi Crossbar (CAA) của Bozinovski.[15][16] Ma trận bộ nhớ W =|| w(a,s)|| cũng giống như tám năm sau Q-bảng của Q-learning. Các kiến trúc đã giới thiệu thuật ngữ "đánh giá trạng thái" trong học tăng cường. Thuật toán học thanh ngang, được viết bằng mã giả toán học trong bài báo, trong mỗi lần lặp lại thực hiện các tính toán sau:

  • Trong trạng thái s hiện hành động a;
  • Nhận trạng thái hệ quả s';
  • Tính toán đánh giá trạng thái v(s');
  • Cập nhật giá trị thanh ngang w'(a,s) = w(a,s) + v(s').

Thuật ngữ "tăng cường thứ cấp", được sử dụng từ lý thuyết học tập động vật, để mô hình hóa các giá trị trạng thái thông qua backpropagation: giá trị trạng thái v(s') của tình huống hậu quả được đặt ngược lại cho các tình huống gặp phải trước đây. CAA tính toán các giá trị trạng thái theo chiều dọc và hành động theo chiều ngang ("thanh ngang"). Biểu đồ trình diễn cho thấy việc học tăng cường bị trì hoãn chứa các trạng thái (mong muốn, không mong muốn và trạng thái trung tính), được tính toán bởi hàm đánh giá trạng thái. Hệ thống học tập này là tiền thân của thuật toán Q-learning.[17]

Vào năm 2014, Google DeepMind đã cấp bằng sáng chế [18] một ứng dụng Q-learning để học sâu, có tiêu đề "học tăng cường sâu" hoặc "Q-learning sâu" có thể chơi các trò chơi Atari 2600 ở cấp độ chuyên gia.

Liên quan

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf